草庐IT

sql - GROUP BY 和 ORDER BY

全部标签

python - PySpark - Hive 上下文不返回结果但 SQL 上下文返回类似查询

当我在PySpark中运行HiveContext和SQLContext进行比较查询时,我注意到性能存在巨大差异版本/配置Spark1.3.1(也尝试过Spark1.5.1)Hadoop2.6(在CDH5.4.0上)pyspark--masteryarn--num-executors5--executor-memory10g--driver-memory4g--driver-cores4表格信息database.table有超过2k个分区database.table在field1上分区(在where子句中使用)HIVE上下文实现frompyspark.sqlimportSQLContex

【IDEA】未配置 SQL 方言:无法使用SQL提示

问题内容SQL提示未配置SQL方言问题原因如提示描述,没有配置SQL方言与数据源解决方法1、配置SQL方言路径:配置为工程路径2、配置数据源注意:填写数据库信息3、测试效果

SQL中ALTER用法总结

在项目迭代过程中,通常会因为新增或者修改一些功能时发现需要对“已有表”中的列进行各种操作,此时就需要使用到SQL中的ALTER语法了,总结下来一共有十点,如下:1.删除列    ALTERTABLE表名DROPCOLUMN列名;2.增加列    ALTERTABLE表名ADDCOLUMN列名属性约束;3.重命名列        ALTERTABLE表名RENAMECOLUMN旧列名 TO新列名;4.重命名表        ALTERTABLE旧表名RENAME TO新表名;5.删除主键    ALTERTABLE表名DROPPRIMARYKEY;6.添加主键===CONSTRAINT约束名可以

scala - 我想将 Hive 中所有现有的 UDTF 转换为 Scala 函数并从 Spark SQL 使用它

任何人都可以给我一个用scala编写的返回多行并将其用作SparkSQL中的UDF的示例UDTF(例如;explode)吗?表:表1+------+----------+----------+|userId|someString|varA|+------+----------+----------+|1|example1|[0,2,5]||2|example2|[1,20,5]|+------+----------+----------+我想创建以下Scala代码:defexampleUDTF(var:Seq[Int])={//codetoexplodevarAfield???}sql

sql - Hive 连接或子查询混淆

(SELECTid,SUM(hits/ab)ASHABFROMbattingGROUPBYid)bSELECTid,bmonth,bstateFROMmasteraWHEREbmonth>=0ANDbstateisNOTNULLGROUPBybmonth,bstate到目前为止,我有这些胡言乱语,但我迷失了如何形成连接然后继续。我不确定从哪里开始得到东西。我们应该加入还是使用子查询?请协助在下面查找架构:CREATEEXTERNALTABLEIFNOTEXISTSbatting(idSTRING,yearINT,teamSTRING,leagueSTRING,gamesINT,abIN

sql - 在 Hive SQL 中,使用分区键基于另一个表中的列创建表

我想根据现有表中的列创建一个新表,在配置单元中添加一个新的分区列。我想在hivesql中实现这个目标。除了下面的sql或者使用kettle之类的ETL工具还有没有别的办法createtableifnotexiststable_name(col1,col2,col3,……,coln)partitionedbydt;其中col1到coln来自已经存在的旧表,dt是新添加的partitionkey。因为旧表太大,可能有几百列,罗列出来会很累。但是,下面的sql显示语法错误:createtableifnotexiststable_namelikeolder_table_namepartitio

sql - Hive SQL Integer YYYYMM 前几个月

我想创建一个查询最近2个月的SQL语句。例如:Select*fromxwheresampledate目前我正在使用这个:(year(from_unixtime(unix_timestamp()))*100+month(from_unixtime(unix_timestamp())))-1但它在一年的前两个月返回错误的语句:(我的想法是用日期计算,然后把它改成yyyymm整数格式。有什么想法吗? 最佳答案 你能试试这个吗:SELECTcolomnFROMtableWHEREdate>(SELECTadd_months(from_uni

sql - 使用时间轴列作为 Hive 分区字段时出现异常

我正在尝试将数据从普通表加载到Hive分区表。这是我的普通表格语法:createtablex(namestring,date1string);这是我的新分区表语法:createtabley(namestring,date1string)partitionedby(timestamp1string);下面是我是如何加载数据到y的:insertintotableyPARTITION(SUBSTR(date1,0,2))selectname,date1fromx;这是我的异常(exception):FAILED:ParseExceptionline1:39missing)at'('near'

hadoop - sqoop eval 中文件的 SQL 评估参数

是否有任何选项可以从文件运行SQL评估参数,而不是在sqoop评估期间使用--query参数硬编码sql语句?例如:sqoopeval-Dmapreduce.job.queuename=NONP.XXXX--connect"jdbc:oracle:thin:ABC/PSCODE@XXX.XX.XX.com:61901/XXX_ANY"--usernameXXXX--passwordDXX--query"TRUNCATETABLESAMPLE_STG_TABLEDROPSTORAGE";我想在文件statement.sql中存储语句"TRUNCATETABLESAMPLE_STG_TAB

sql - Hive 中 SQL Server UPDATE 命令的最佳等价物

Hive中SQLServerUPDATESET命令的最佳(更便宜)等价物是什么?例如,考虑我要转换以下查询的情况:UPDATETABLEemployeeSETvisaEligibility='YES'WHEREexperienceMonths>36等效于Hive查询。 最佳答案 我假设您有一个没有分区的表,在这种情况下您应该能够执行以下命令:INSERTOVERWRITETABLEemployeeSELECTemployeeId,employeeName,experienceMonths,salary,CASEWHENexperie